Перейти к основному содержимому

8.06. Типы ИИ-моделей

Всем

Типы ИИ-моделей

  1. LLM (Large Language Models) - большие языковые модели, обученные на огромных объёмах текстовых данных. Генерируют текст, отвечают на вопросы, пишут статьи, резюмируют информацию. Примеры - GPT-4, Claude, Gemini, LLaMA.
  2. LCM (Latent Concept Models) - модели, которые находят скрытые зависимости и смыслы в данных. Интерпретируют сложные данные, выявляют паттерны и причины.
  3. LAM (Language Action Models) - модели, которые понимают естественный язык и выполняют действия. Автоматизируют процессы, бронируют, пересылают, настраивают интерфейсы.
  4. MoE (Mixture of Experts) - архитектура, где модель состоит из множества «экспертов». Активируют только нужную часть модели для конкретной задачи.
  5. VLM (Vision-Language Models) - мультимодальные модели, работающие с текстом и изображениями. Анализируют визуальную информацию, создают подписи к изображениям, выполняют визуальный поиск.
  6. SLM (Small Language Models) - компактные языковые модели, оптимизированные для скорости и автономности. Работают быстрее и легче, чем большие модели, но с меньшей мощностью.
  7. MLM (Masked Language Models) - модели, обученные предсказывать скрытые слова в тексте. Улучшают понимание контекста, исправляют ошибки, классифицируют текст.
  8. SAM (Segment Anything Model) - модель для сегментации объектов на изображениях. Выделяют объекты по клику или указанию.
  9. Diffusion Models - одели, генерирующие изображения через процесс «размывания» и «восстановления». Создают реалистичные изображения, редактируют существующие. Примеры - Stable Diffusion, DALL·E, MidJourney.
  10. Reinforcement Learning Models - модели, обученные на принципах подкрепления (rewards/punishments). Принимают решения в динамических средах, учатся на ошибках.
  11. Generative Adversarial Networks (GANs) - состоят из двух нейросетей: генератора и дискриминатора. Генерируют новые данные (например, изображения), которые сложно отличить от реальных.
  12. Transformer Models - архитектура, лежащая в основе большинства современных языковых моделей. Обрабатывают последовательности данных (текст, звук, видео) с учётом контекста.
  13. Time-Series Models - модели для анализа временных рядов. Предсказывают будущие значения на основе прошлых данных.
  14. Graph Neural Networks (GNNs) - модели для работы с графовыми структурами данных. Анализируют связи между объектами, рекомендуют товары, предсказывают взаимодействия.
  15. Multimodal Models - модели, работающие с несколькими типами данных одновременно (текст, изображения, звук). Интегрируют разные типы данных для более глубокого понимания.

Large Language Models (LLM)

Что это такое

Large Language Models представляют собой нейросетевые архитектуры, обученные на массивных корпусах текстовых данных из открытых источников. Эти модели осваивают статистические закономерности языка, включая грамматику, семантику, стилистику и фактические знания. Основная функция LLM — генерация связного текста по заданному контексту или запросу. Модели отвечают на вопросы, составляют документы, пишут код, переводят тексты и адаптируют содержание под разные стили изложения. Примеры включают GPT-4 от OpenAI, Claude от Anthropic, Gemini от Google и открытые модели серии LLaMA от Meta. Размер таких моделей измеряется количеством параметров — от нескольких миллиардов до сотен миллиардов, что напрямую влияет на качество понимания контекста и сложность решаемых задач.

Как оно устроено

Архитектурной основой большинства LLM служит трансформер — механизм, использующий механизмы внимания для обработки последовательностей токенов. Обучение проходит в два этапа. На первом этапе модель получает задачу предсказания следующего токена в последовательности на основе предыдущих, что формирует внутреннее представление языковых структур. На втором этапе применяется обучение с подкреплением от человека, где модель корректирует поведение на основе ранжирования ответов экспертами. Внутреннее состояние модели включает матрицы внимания, которые взвешивают значимость каждого токена относительно других в текущем контексте. При генерации текста модель последовательно выдаёт токены, каждый раз пересчитывая распределение вероятностей для следующего элемента на основе накопленного контекста. Размер контекстного окна определяет максимальную длину обрабатываемого фрагмента — современные реализации поддерживают до 128 тысяч токенов.


Latent Concept Models (LCM)

Что это такое

Latent Concept Models выявляют скрытые смысловые структуры и абстрактные зависимости в неструктурированных данных. Эти модели работают с текстами, изображениями или мультимодальными наборами, обнаруживая концепции, которые не заданы явно в обучающих примерах. Применение включает анализ причинно-следственных связей в медицинских данных, выявление тематических кластеров в научных публикациях, обнаружение аномалий в финансовых транзакциях. В отличие от поверхностных классификаторов, LCM строят интерпретируемые представления, позволяющие проследить логику принятия решений. Модели помогают экспертам понимать, какие факторы влияют на результат, а не просто получать конечный вывод.

Как оно устроено

Архитектура LCM основана на вариационных автокодировщиках или трансформерах с дополнительными слоями интерпретации. Модель преобразует входные данные в латентное пространство низкой размерности, где каждая ось соответствует определённой концепции или признаку. Процесс обучения включает регуляризацию, которая принуждает модель группировать похожие семантические элементы в компактные области латентного пространства. Для извлечения концепций применяются методы факторизации и кластеризации над активациями промежуточных слоёв. При анализе нового объекта модель проецирует его в латентное пространство и определяет доминирующие концепции по координатам проекции. Некоторые реализации позволяют манипулировать конкретными измерениями латентного пространства для изменения соответствующих признаков генерируемого контента.


Language Action Models (LAM)

Что это такое

Language Action Models соединяют понимание естественного языка с выполнением конкретных действий в цифровых средах. Эти модели интерпретируют инструкции пользователя и трансформируют их в последовательность операций: кликов по интерфейсу, вызовов API, заполнения форм, навигации по приложениям. Примеры использования — автоматизация бронирования отелей через веб-сайты, управление умным домом голосовыми командами, выполнение многошаговых задач в корпоративных системах без написания скриптов. LAM работают с разнородными интерфейсами: графическими элементами, REST API, базами данных, терминалами. Модель сохраняет состояние задачи между шагами, корректирует план при возникновении ошибок и запрашивает уточнения при неоднозначности инструкций.

Как оно устроено

Архитектура LAM объединяет языковую модель с модулями наблюдения и действия. Модуль наблюдения получает текущее состояние среды — скриншот интерфейса, структуру DOM, список доступных API-методов. Языковая компонента анализирует пользовательский запрос и генерирует план действий в виде последовательности шагов. Модуль действия преобразует каждый шаг в конкретную операцию: клик по координатам, ввод текста, HTTP-запрос. После выполнения шага система получает обратную связь от среды и корректирует дальнейший план. Для повышения надёжности применяется иерархическое планирование: сначала строится абстрактный план из крупных шагов, затем каждый шаг детализируется до атомарных операций. Некоторые реализации используют кэширование успешных последовательностей действий для ускорения повторяющихся задач.


Mixture of Experts (MoE)

Что это такое

Mixture of Experts представляет собой архитектурный подход, при котором модель состоит из множества специализированных подмоделей — экспертов. Каждый эксперт обучается эффективно решать определённый класс задач или работать с конкретными типами данных. При обработке входного запроса система динамически выбирает небольшое подмножество экспертов, наиболее подходящих для текущей задачи. Такой подход позволяет создавать модели с сотнями миллиардов параметров, сохраняя при этом приемлемую вычислительную сложность на этапе вывода. MoE применяется в крупных языковых моделях, таких как Mixtral от Mistral AI и Gemini от Google, обеспечивая баланс между ёмкостью знаний и скоростью генерации.

Как оно устроено

Структура MoE включает три ключевых компонента: шлюз (gating network), набор экспертов и механизм маршрутизации. Шлюз анализирует входной токен или последовательность и вычисляет веса для каждого эксперта, отражая их релевантность текущему контексту. Маршрутизация направляет токен к топ-K экспертов с наибольшими весами — обычно K равно 1 или 2. Каждый эксперт обрабатывает полученный токен независимо, применяя собственные параметры преобразования. Результаты работы выбранных экспертов объединяются с учётом весов шлюза. Важный аспект реализации — балансировка нагрузки: шлюз обучается равномерно распределять запросы между экспертами, предотвращая ситуацию, когда часть экспертов простаивает. Эксперты могут иметь одинаковую архитектуру, но различаются весами, полученными в процессе специализированного обучения.


Vision-Language Models (VLM)

Что это такое

Vision-Language Models обрабатывают и связывают информацию из двух модальностей: визуальной и текстовой. Эти модели анализируют изображения и видео, отвечая на вопросы о содержимом, генерируя описания, находя объекты по текстовому запросу. Примеры задач — ответ на вопрос «Какой цвет у автомобиля на фото?», создание детального описания сцены для слабовидящих пользователей, поиск изображений по запросу «кофе на деревянном столе у окна». VLM интегрируют в системы дополненной реальности, автономные транспортные средства, инструменты медицинской визуализации. Модели понимают пространственные отношения между объектами, распознают действия и эмоции людей, интерпретируют диаграммы и графики.

Как оно устроено

Архитектура VLM объединяет два энкодера: визуальный и текстовый. Визуальный энкодер, обычно основанный на Vision Transformer или свёрточной сети, преобразует изображение в последовательность векторных представлений участков. Текстовый энкодер, построенный на трансформере, обрабатывает слова или токены запроса. Оба потока данных объединяются в общем пространстве внимания, где модель устанавливает связи между визуальными элементами и лингвистическими концепциями. Процесс обучения включает контрастивную задачу: модель учится сопоставлять соответствующие пары изображение-текст и отдалять несоответствующие. Для генеративных задач добавляется декодер, который последовательно формирует текстовое описание на основе объединённого представления. Некоторые реализации поддерживают детекцию объектов через генерацию координат ограничивающих рамок в текстовом формате.


Small Language Models (SLM)

Что это такое

Small Language Models — компактные языковые модели с ограниченным количеством параметров, оптимизированные для работы на устройствах с ограниченными ресурсами. Размер таких моделей варьируется от нескольких миллионов до нескольких миллиардов параметров. Основные преимущества — высокая скорость вывода, низкое энергопотребление, возможность автономной работы без подключения к интернету. SLM развёртываются на мобильных устройствах, встраиваемых системах, браузерах, персональных компьютерах. Применение включает автодополнение текста в редакторах кода, локальную обработку конфиденциальных документов, персонализированные ассистенты в приложениях. Модели сохраняют базовые языковые способности: грамматический анализ, суммаризация коротких текстов, классификация намерений.

Как оно устроено

Архитектура SLM строится на упрощённых версиях трансформеров с уменьшенной глубиной и шириной слоёв. Ключевые оптимизации включают квантизацию весов до 4 или 8 бит, что снижает объём памяти и ускоряет вычисления на процессорах без специализированного оборудования. Некоторые модели используют архитектуру с состоянием — рекуррентные механизмы, которые хранят контекст в компактном векторе вместо полного пересчёта внимания на каждом шаге. Обучение проходит через дистилляцию знаний от крупных моделей: SLM имитирует поведение и внутренние представления большой модели на тех же задачах. Для повышения эффективности применяется адаптивная обработка: модель динамически пропускает слои или упрощает вычисления для простых запросов, сохраняя полную архитектуру только для сложных случаев. Размер контекстного окна обычно ограничен 2–8 тысячами токенов.


Masked Language Models (MLM)

Что это такое

Masked Language Models обучаются предсказывать скрытые элементы в последовательности текста. В процессе обучения случайные токены заменяются специальным маскирующим токеном, а модель восстанавливает исходное содержание на основе окружающего контекста. Такой подход развивает глубокое понимание языковых структур, семантических связей и прагматических нюансов. Основное применение MLM — предобучение моделей для последующей донастройки на специфические задачи: классификацию текста, извлечение именованных сущностей, анализ тональности. Модели эффективно работают с неполными или зашумлёнными данными, исправляют опечатки, восстанавливают пропущенные фрагменты в документах. Архитектура BERT от Google стала классическим примером реализации этого подхода.

Как оно устроено

Обучение MLM проходит в режиме самообучения на неаннотированных текстах. На вход подаётся предложение, в котором 15% токенов подвергаются модификации: 80% заменяются маской, 10% — случайными токенами, 10% остаются без изменений. Модель обрабатывает всю последовательность параллельно через энкодер на основе трансформера и для каждой позиции с маской предсказывает исходный токен. Функция потерь учитывает только замаскированные позиции. После предобучения модель фиксирует веса энкодера и добавляет специализированные головы для конкретных задач — классификации, регрессии или генерации последовательностей. При донастройке все параметры, включая энкодер, продолжают обучаться на размеченных данных задачи. Такой подход позволяет переносить общие языковые знания на узкие предметные области с минимальным объёмом размеченных примеров.


Segment Anything Model (SAM)

Что это такое

Segment Anything Model решает задачу сегментации объектов на изображениях без предварительного указания класса объекта. Модель выделяет границы любого объекта по минимальной подсказке: точке клика, ограничивающей рамке или текстовому описанию. SAM работает с разнородными сценами — фотографиями, медицинскими снимками, спутниковыми изображениями — без дополнительного обучения под конкретную область. Применение включает подготовку разметки для обучающих наборов, анализ медицинских изображений, обработку видеопотоков в системах наблюдения, редактирование изображений в графических редакторах. Модель генерирует несколько вариантов сегментации для одной подсказки, позволяя пользователю выбрать наиболее подходящий вариант.

Как оно устроено

Архитектура SAM состоит из трёх компонентов: энкодера изображений, энкодера подсказок и маски-декодера. Энкодер изображений, основанный на Vision Transformer, преобразует входное изображение в плотную карту признаков высокого разрешения. Энкодер подсказок обрабатывает тип подсказки — точку, рамку или текст — и преобразует её в векторное представление. Маски-декодер объединяет оба представления через механизм перекрёстного внимания и генерирует бинарную маску сегментации. Обучение проходит на наборе SA-1B, содержащем более миллиарда масок для 11 миллионов изображений, собранных автоматизированным конвейером. Для генерации нескольких вариантов сегментации модель использует параметр неопределённости, который управляет разнообразием предсказаний. Модель поддерживает интерактивную корректировку: пользователь добавляет положительные и отрицательные точки для уточнения границ объекта.


Diffusion Models

Что это такое

Diffusion Models генерируют изображения через итеративный процесс постепенного уточнения содержания. Модель начинает с полностью случайного шума и последовательно устраняет его, шаг за шагом приближаясь к целевому изображению. Каждый шаг корректирует распределение пикселей на основе условий генерации — текстового описания, исходного изображения для редактирования или класса объекта. Эти модели создают фотореалистичные изображения, художественные стили, архитектурные визуализации. Процесс обратной диффузии позволяет точно контролировать детали через текстовые подсказки, сохраняя при этом когерентность всей сцены. Популярные реализации включают Stable Diffusion, DALL·E 2 и Midjourney.

Как оно устроено

Архитектура диффузионных моделей основана на U-Net — свёрточной сети с пропускающими связями между слоями разного разрешения. Процесс обучения состоит из прямого и обратного проходов. В прямом проходе к изображению последовательно добавляется гауссов шум в течение сотен шагов, пока содержание не становится неузнаваемым. Модель обучается предсказывать добавленный шум на каждом шаге обратного прохода на основе зашумлённого изображения и условий генерации. При выводе процесс запускается в обратном направлении: начиная со случайного шума, модель последовательно уточняет изображение за 20–50 шагов. Для ускорения вывода применяются методы дистилляции, сокращающие количество шагов без потери качества. Текстовые условия интегрируются через механизм внимания: эмбеддинги слов из текстового энкодера встраиваются в слои U-Net для управления генерацией соответствующих объектов.


Reinforcement Learning Models

Что это такое

Модели обучения с подкреплением взаимодействуют с динамической средой, последовательно принимая решения для максимизации совокупной награды. Агент получает состояние среды, выбирает действие, наблюдает новое состояние и получает скалярную награду. Цель обучения — выработать стратегию, которая максимизирует ожидаемую сумму будущих наград с учётом дисконтирования. Применение включает управление роботами в реальном мире, обучение игровых агентов, оптимизацию логистических маршрутов, настройку параметров систем в реальном времени. Модели адаптируются к изменяющимся условиям среды, обнаруживают неочевидные стратегии и оптимизируют долгосрочные последствия решений.

Как оно устроено

Архитектура включает политику, функцию ценности и механизм обновления. Политика определяет распределение вероятностей действий для каждого состояния — может быть представлена нейросетью. Функция ценности оценивает ожидаемую будущую награду из текущего состояния или после выполнения действия. Обучение проходит через сбор опыта во взаимодействии со средой и обновление параметров на основе временной разницы между предсказанной и фактической наградой. Алгоритмы вроде PPO или SAC стабилизируют обучение через ограничение изменения политики между итерациями или энтропийную регуляризацию для поддержания разведывательного поведения. Для работы с визуальными состояниями применяются свёрточные энкодеры, преобразующие кадры в компактные представления. Многие системы используют буфер воспроизведения — хранилище прошлых переходов, из которого случайным образом выбираются мини-батчи для обучения, снижая корреляцию между последовательными обновлениями.


Generative Adversarial Networks (GANs)

Что это такое

Generative Adversarial Networks состоят из двух нейросетей, обучающихся в конкурентном режиме. Генератор создаёт синтетические данные — изображения, аудио или видео — стремясь сделать их неотличимыми от реальных. Дискриминатор оценивает подлинность данных, различая настоящие примеры из обучающего набора и сгенерированные генератором. В процессе обучения генератор совершенствуется, обманывая дискриминатор всё эффективнее, а дискриминатор повышает точность различения. Результат — генератор, способный создавать высококачественные синтетические образцы, сохраняющие статистические свойства исходного распределения. GANs применяются для создания реалистичных портретов, преобразования стиля изображений, восстановления повреждённых участков, генерации тренировочных данных для других моделей.

Как это устроено

Обучение GAN проходит через минимаксную игру. Генератор принимает случайный вектор из латентного пространства и преобразует его в данные через транспонированные свёртки или трансформерные слои. Дискриминатор обрабатывает как реальные, так и сгенерированные образцы через свёрточные слои и выдаёт вероятность подлинности. Функция потерь дискриминатора максимизирует правильную классификацию реальных и синтетических данных. Функция потерь генератора минимизирует вероятность, с которой дискриминатор распознаёт его выход как синтетический. Ключевая сложность — достижение равновесия между сетями. Для стабилизации применяются техники: градиентное штрафование для обеспечения липшицевости, спектральная нормализация весов, пошаговое наращивание разрешения генерируемых изображений. Некоторые архитектуры добавляют условия к генерации — класс объекта или текстовое описание — через встраивание условий в промежуточные слои обеих сетей.


Transformer Models

Что это такое

Transformer Models обрабатывают последовательные данные через параллельные вычисления с механизмом внимания, устраняя необходимость рекуррентных связей. Архитектура эффективно моделирует долгосрочные зависимости в тексте, аудио, видео и других последовательностях. Трансформеры стали основой современных языковых моделей, систем машинного перевода, генерации кода и обработки мультимодальных данных. Ключевое преимущество — масштабируемость: производительность растёт с увеличением данных и вычислительных ресурсов без фундаментальных изменений архитектуры. Модель обрабатывает все элементы последовательности одновременно, взвешивая вклад каждого элемента в представление других через динамические коэффициенты внимания.

Как это устроено

Базовый блок трансформера — много голов внимания. Каждая голова вычисляет три проекции входных векторов: запросы, ключи и значения. Скалярное произведение запросов и ключей определяет сходство между позициями, преобразуется в веса через softmax, а взвешенная сумма значений формирует выходное представление. Несколько голов работают параллельно с разными проекциями, захватывая разные типы зависимостей. Выход внимания проходит через полносвязный слой с нелинейностью и нормализацию по слоям. Энкодер трансформера состоит из стека таких блоков. Декодер добавляет второй механизм внимания, маскирующий будущие токены для автогрессивной генерации. Позиционное кодирование добавляется к входным эмбеддингам для сохранения информации о порядке элементов — синусоидальные функции или обучаемые векторы. Масштабирование архитектуры достигается увеличением количества слоёв, размерности скрытых состояний и числа голов внимания.


Time-Series Models

Что это такое

Модели временных рядов анализируют последовательности наблюдений, упорядоченных во времени, для выявления закономерностей и прогнозирования будущих значений. Данные включают финансовые котировки, показания датчиков, трафик сетей, метеорологические измерения. Модели учитывают автокорреляцию — зависимость текущего значения от предыдущих, сезонные компоненты, тренды и внешние факторы. Применение охватывает прогнозирование спроса в ритейле, обнаружение аномалий в промышленном оборудовании, предсказание отказов серверов, оптимизацию энергопотребления зданий. Современные подходы обрабатывают многомерные временные ряды с сотнями параллельных сигналов и нелинейными взаимосвязями между каналами.

Как это устроено

Архитектура временных рядов варьируется от классических статистических моделей до глубоких нейросетей. Рекуррентные сети с долгой краткосрочной памятью обрабатывают последовательность шаг за шагом, сохраняя скрытое состояние, которое резюмирует историю. Свёрточные сети применяют фильтры к окнам временного ряда для извлечения локальных паттернов. Трансформеры для временных рядов используют специализированные позиционные кодирования и разреженное внимание для обработки длинных последовательностей. Процесс прогнозирования включает окно наблюдения — фиксированный отрезок прошлых значений — и горизонт прогноза — количество шагов вперёд. Для многомерных рядов применяются механизмы внимания между каналами для моделирования межканальных зависимостей. Обучение минимизирует ошибку между предсказанными и фактическими значениями на валидационном множестве, часто с использованием функций потерь, чувствительных к выбросам.


Graph Neural Networks (GNNs)

Что это такое

Graph Neural Networks обрабатывают данные, представленные в виде графов — множеств узлов, соединённых рёбрами. Узлы могут представлять пользователей социальной сети, молекулы в химии, транзакции в финансовой системе. Рёбра кодируют отношения: дружбу, химические связи, переводы денег. Основная задача GNN — извлечь представление каждого узла с учётом его окружения в графе. Модели выполняют классификацию узлов, предсказание связей, кластеризацию сообществ, генерацию новых графов. Применение включает рекомендательные системы, обнаружение мошенничества, разработку лекарств, анализ цепочек поставок. GNN улавливают структурные паттерны, недоступные табличным моделям.

Как это устроено

Ключевой механизм GNN — агрегация сообщений между соседними узлами. На каждой итерации узел собирает представления своих непосредственных соседей через рёбра, объединяет их с собственным состоянием и обновляет внутреннее представление. Процесс повторяется несколько раз, расширяя рецептивное поле узла на более удалённые части графа. Типы агрегации включают сумму, среднее или максимум по соседям, часто с применением обучаемых весов для рёбер. После нескольких итераций агрегации полученные представления узлов подаются в классификатор или регрессор для решения конечной задачи. Для крупных графов применяется выборка соседей — ограничение количества узлов, участвующих в агрегации на каждом шаге. Некоторые архитектуры обрабатывают динамические графы, где структура и признаки узлов изменяются во времени, добавляя рекуррентные компоненты для отслеживания эволюции состояний.


Multimodal Models

Что это такое

Мультимодальные модели интегрируют информацию из нескольких типов данных — текста, изображений, аудио, видео, сенсорных показаний — для формирования единого семантического представления. Такие модели понимают связи между модальностями: как описание текстом соотносится с визуальной сценой, как звук соответствует движению на видео. Применение включает поиск мультимедиа по текстовому запросу, генерацию видео по сценарию, анализ эмоций по голосу и мимике одновременно, интерпретацию медицинских данных из разных источников. Модели обнаруживают согласованные паттерны между модальностями и компенсируют отсутствие данных в одной модальности за счёт информации из других. Это позволяет работать с неполными наблюдениями и повышает надёжность выводов.

Как это устроено

Архитектура мультимодальных моделей включает отдельные энкодеры для каждой модальности и механизм слияния представлений. Текстовый энкодер преобразует слова в последовательность векторов, визуальный энкодер обрабатывает изображение через свёртки или Vision Transformer, аудио-энкодер извлекает спектральные признаки. Слияние происходит на разных уровнях: раннее — объединение сырых данных, промежуточное — интеграция через перекрёстное внимание между потоками, позднее — комбинирование финальных представлений. Трансформерные архитектуры применяют единое пространство внимания, куда проецируются токены из всех модальностей, позволяя каждому элементу взаимодействовать с любым другим независимо от происхождения. Обучение включает контрастивные задачи — сближение представлений соответствующих примеров из разных модальностей и отдаление несоответствующих пар. Для генеративных задач добавляется декодер, который может выдавать данные в одной или нескольких модальностях на основе объединённого представления.